Day 22. 網路爬蟲 Web Crawler 基本教學

第 11 屆 iThome 鐵人賽

DAY 22

自我挑戰組

python30天自學筆記系列第 22 篇

11th鐵人賽

隨風飄搖的竹子

2019-10-07 23:06:49

4541 瀏覽

分享至

今天要來介紹Python 網路爬蟲 Web Crawler

基本流程

1.連線到特定網址，抓取資料
2.解析資料，取得實際想要的部分

抓取資料

關鍵心法

盡可能讓程式模仿一個普通使用者的樣子

解析資料

JSON格式資料

使用內建json模組即可

HTML格式資料

使用第三方套件BeautifulSoup來做解析

安裝套件

PIP套件管理工具：安裝Python時，就一起裝在電腦裡了
安裝BeautifulSoup：pip install beautifulsoup4

範例程式

1.太過於直接，無模仿普通使用者，故訪問被拒絕

2.模仿普通使用者

3.安裝第三方套件BeautifulSoup

4.抓取網頁標題

5.抓取單一文章標題

6.抓取所有文章標題

Day 21. 實體物件的建立與使用 - 下篇 - 實體方法 - Instance Methods

Day 23. Flask 網站開發 - 基礎環境建置教學

系列文

python30天自學筆記共 30 篇

RSS系列文訂閱系列文

14 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

python30天自學筆記系列 第 22 篇